在本文中,我们介绍了一种基于在线模型的新型强化学习算法,该学习算法使用无知的转换来传播不确定性以预测未来的奖励。先前的方法要么用高斯在预测范围的每个步骤上近似状态分布,要么执行蒙特卡洛模拟以估计奖励。我们的方法取决于所使用的sigma点的数量,可以传播平均值和协方差,或与最小点或高阶矩具有与蒙特卡洛相似的高阶矩。整个框架是作为用于在线培训的计算图。此外,为了防止通过通用状态依赖性不确定性模型传播时Sigma点的爆炸数,我们将Sigma点的扩展和收缩层添加到我们的图形中,该图形是使用矩匹配的原理设计的。最后,我们提出了受顺序二次编程启发的梯度下降,以在存在状态约束的情况下更新策略参数。我们证明了在模拟中使用两种应用的建议方法。当动力学以状态依赖性的不确定性知道时,第一个为卡车杆问题设计了一个稳定控制器。第二个示例是在我们以前的工作之后,在存在输入约束的情况下,调整了基于控制屏障函数函数的二次编程控制器的参数。
translated by 谷歌翻译
基于二次程序(QP)基于状态反馈控制器,其不等式约束以控制障碍(CBFS)和Lyapunov函数的限制使用类-U \ Mathcal {K k} $函数其值的值,对其值的函数,对其值的参数敏感这些类 - $ \ MATHCAL {K} $ functions。但是,有效CBF的构建并不直接,对于QP的任意选择参数,系统轨迹可能会进入QP最终变得不可行的状态,或者可能无法实现所需的性能。在这项工作中,我们将控制合成问题作为差异策略提出,其参数在高级别的时间范围内被优化,从而导致双层优化常规。在不了解一组可行参数的情况下,我们开发了一种递归可行性引导的梯度下降方法来更新QP的参数,以便新解决方案至少和以前的解决方案的性能至少执行。通过将动力学系统视为有向图,随着时间的推移,这项工作提出了一种新颖的方式,可以通过(1)使用其解决方案的梯度来优化QP控制器在一个时间范围内对多个CBF的性能进行敏感性,从而提出了一种新的方式。分析,以及(2)将这些和系统动力学梯度进行反向传播,以更新参数,同时保持QPS的可行性。
translated by 谷歌翻译
People capture photos and videos to relive and share memories of personal significance. Recently, media montages (stories) have become a popular mode of sharing these memories due to their intuitive and powerful storytelling capabilities. However, creating such montages usually involves a lot of manual searches, clicks, and selections that are time-consuming and cumbersome, adversely affecting user experiences. To alleviate this, we propose task-oriented dialogs for montage creation as a novel interactive tool to seamlessly search, compile, and edit montages from a media collection. To the best of our knowledge, our work is the first to leverage multi-turn conversations for such a challenging application, extending the previous literature studying simple media retrieval tasks. We collect a new dataset C3 (Conversational Content Creation), comprising 10k dialogs conditioned on media montages simulated from a large media collection. We take a simulate-and-paraphrase approach to collect these dialogs to be both cost and time efficient, while drawing from natural language distribution. Our analysis and benchmarking of state-of-the-art language models showcase the multimodal challenges present in the dataset. Lastly, we present a real-world mobile demo application that shows the feasibility of the proposed work in real-world applications. Our code and data will be made publicly available.
translated by 谷歌翻译
服务监视应用程序不断生成数据以监视其可用性。因此,实时和准确地对传入数据进行分类至关重要。为此,我们的研究开发了一种使用Learn ++来处理不断发展的数据分布的自适应分类方法。这种方法顺序预测并使用新数据更新监视模型,逐渐忘记了过去的知识并确定了突然的概念漂移。我们采用从工业应用获得的连续数据块来逐步评估预测变量的性能。
translated by 谷歌翻译
在本文中,我们考虑通过结合目标函数的曲率信息来改善随机方差减少梯度(SVRG)方法。我们建议通过将其合并到SVRG中,以使用计算有效的Barzilai-Borwein(BB)方法来降低随机梯度的方差。我们还将BB步骤大小合并为其变体。我们证明其线性收敛定理不仅适用于所提出的方法,还适用于SVRG的其他现有变体,并使用二阶信息。我们在基准数据集上进行了数值实验,并表明具有恒定步长的提出方法的性能优于现有方差减少的方法,这些方法对于某些测试问题。
translated by 谷歌翻译
现代回顾性分析系统利用级联体系结构减轻瓶颈来计算深神经网络(DNNS)。但是,现有的级联反应有两个局限性:(1)解码瓶颈要么被忽视或规避,要支付重大的计算和存储成本以进行预处理; (2)系统专门用于时间查询,缺乏空间查询支持。本文介绍了COVA,这是一种新颖的级联体系结构,该结构将压缩域和像素域之间的级联计算分开以解决解码瓶颈,从而支持时间和空间查询。 COVA级联分析分为三个主要阶段,其中前两个阶段是在压缩域中执行的,而在像素域中的最后一个阶段。首先,COVA检测一组压缩帧(称为轨道)上移动对象(称为斑点)的出现。然后,使用轨道结果,Cova谨慎地选择了一组最小的帧以获取标签信息,并仅解码它们以计算完整的DNN,从而减轻了解码的瓶颈。最后,Cova将轨道与标签相结合,以产生最终分析结果,用户可以处理时间和空间查询。我们的实验表明,COVA对现代级联系统提供了4.8倍的吞吐量改进,同时施加了适度的精度损失。
translated by 谷歌翻译
解决编码问题的同时学习过程非常复杂。了解学习编码期间所需的技能是非常重要的。作为了解学生在学习编码期间的学生行为和方法的第一步,两个在线编码分配或竞争通过1小时的时间限制进行​​。在每个编码测试结束时进行了一项调查,并收集了不同问题的答案。在深度统计分析中,完成了解学习过程,同时解决编码问题。它涉及许多参数,包括学生行为,他们的方法和编码问题的难度水平。包含情绪和情绪相关问题可以提高整体预测性能,但在提交状态预测中难度级别。通过深入研究229(第一编码竞争数据集)和325(第二编码竞争数据集)数据点,通过深入研究分析两种编码分配或竞争。主要结果是有前途的,这些结果深入了解如何在学生行为,他们的方法,情感和问题难度水平受到学习问题的影响。
translated by 谷歌翻译
我们描述了一种针对零售电子商务(电子商务)的需求而开发的新型决策问题。在使用物流和零售业商业合作者的同时,我们发现,从供应链中最适合的产品(称为成本为服务或CTS)的产品提供的产品成本是一个关键挑战。电子商务供应链的大规模,高性计,大大地理传播,使这一设置成为精心设计的数据驱动决策算法。在这项初步工作中,我们专注于在每次仓库中从任何仓库到多个客户提供多个产品的特定子问题。我们比较几个基线的相对性能和计算效率,包括启发式和混合整数线性规划。我们表明,基于加强学习的算法与这些政策具有竞争力,具有现实世界中有效扩大的潜力。
translated by 谷歌翻译
今天消费者提供的各种数字付款选择是过去十年的电子商务交易的关键驱动因素。不幸的是,这也升起了网络犯罪分子和欺诈者,通过部署日益复杂的欺诈攻击,在这些系统中不断寻找漏洞。典型的欺诈检测系统采用标准的监督学习方法,重点是最大化欺诈召回率。但是,我们认为这种配方可以导致次优的解决方案。这些欺诈型号的设计要求要求它们对数据中的高级不平衡具有强大,适应欺诈模式的变化,维持欺诈率与下降率之间的平衡,以最大限度地提高收入,并可均可用于异步反馈由于通常在交易和欺诈意识之间存在显着的滞后。为实现这一目标,我们将欺诈检测作为奖励功能中模型内的实用性最大化作为顺序决策问题。历史下降率和欺诈率定义了由批准或拒绝交易的二进制动作空间的系统状态。在这项研究中,我们主要关注实用的最大化并探索此目的不同的奖励功能。已经使用深度Q-Learning进行了两种公开的欺诈数据集,并与不同的分类器相比,已经评估了拟议的欺诈数据集。我们的目标是在未来的工作中解决其余问题。
translated by 谷歌翻译
睡眠研究必须携带与睡眠损失相关的表型和有助于精神病理学的露出机制。最常见的是,调查人员手动将多色网络分类为警惕状态,这是耗时的,需要广泛的培训,并且容易出现帧间间变异性。虽然许多作品已经基于多个EEG通道成功开发了自动化状态分类器,但是我们的目标是生产一种自动化和开放式分类器,可以基于来自啮齿动物的单个皮质脑电图(EEG)来可靠地预测警惕状态,以最大限度地减少伴随的缺点通过电线束缚小动物到计算机程序。大约427小时的连续监测的脑电图,电灰度(EMG)和活性由总数据的571小时的域专家标记。在这里,我们评估各种机器学习技术对分类10-秒钟时期的各种机器学习技术的性能,进入三个离散类中的一种:矛盾,慢波或唤醒。我们的调查包括决策树,随机森林,天真贝叶斯分类器,Logistic回归分类器和人工神经网络。这些方法达到了约74%至约96%的精度。最值得注意的是,随机森林和巢穴分别实现了95.78%和93.31%的显着准确性。在这里,我们已经示出了各种机器学习分类器的潜力,以基于单个EEG读数和单一EMG读数自动,准确地和可靠地对警惕状态进行自动。
translated by 谷歌翻译